Mathematical এবং Statistical Operations (Mean, Median, Standard Deviation)

Machine Learning - পাইথন ডেটা সায়েন্স (Python Data Science) - NumPy: Numerical Python
278

Mathematical এবং Statistical Operations ডেটা বিশ্লেষণ এবং ডেটা সায়েন্সে অত্যন্ত গুরুত্বপূর্ণ ভূমিকা পালন করে। এগুলি ডেটার মূল বৈশিষ্ট্য বোঝার জন্য ব্যবহৃত হয় এবং ডেটা থেকে অন্তর্দৃষ্টি লাভ করতে সহায়ক। Python-এ, এগুলি গণনা করতে NumPy এবং Pandas এর মতো লাইব্রেরি ব্যবহার করা হয়। এখানে আমরা Mean, Median, এবং Standard Deviation এর সংজ্ঞা এবং এগুলির গণনা প্রক্রিয়া ব্যাখ্যা করবো।


১. Mean (গড়)

Mean, যা Arithmetic Mean নামে পরিচিত, একটি পরিসংখ্যানিক পরিমাপ যা ডেটার একটি সেগমেন্ট বা পুরো স্যাম্পল বা পপুলেশনের গড় মান বের করে। এটি সমস্ত ডেটা পয়েন্টের যোগফল এবং পয়েন্টগুলির সংখ্যা দিয়ে ভাগ করার মাধ্যমে হিসাব করা হয়।

গণনা সূত্র:

Mean=XN\text{Mean} = \frac{\sum X}{N}

যেখানে:

  • XX হলো ডেটা পয়েন্ট,
  • NN হলো ডেটা পয়েন্টের মোট সংখ্যা।

উদাহরণ: ডেটা পয়েন্ট: 5,10,15,20,255, 10, 15, 20, 25

গণনা:

Mean=5+10+15+20+255=755=15\text{Mean} = \frac{5 + 10 + 15 + 20 + 25}{5} = \frac{75}{5} = 15


২. Median (মধ্যক)

Median হলো একটি পরিসংখ্যানিক পরিমাপ যা ডেটা সেটের মধ্যবর্তী মান নির্দেশ করে। যদি ডেটা সেটে একটি সরল সংখ্যা থাকে, তবে সেই সংখ্যা হল মিডিয়ান, এবং যদি সেটে দুটি সংখ্যা থাকে, তবে তাদের গড় মিডিয়ান হবে।

গণনা প্রক্রিয়া:

  • যদি ডেটা সেটের সংখ্যা বিসমিলায় (odd), তবে মিডিয়ান হলো সেন্টার ভ্যালু।
  • যদি ডেটা সেটের সংখ্যা জোড় (even), তবে মিডিয়ান হলো দুটি মাঝের সংখ্যার গড়।

উদাহরণ ১ (বিসমিলায় সংখ্যা): ডেটা পয়েন্ট: 1,3,5,7,91, 3, 5, 7, 9

গণনা: মিডিয়ান =5= 5 (মাঝের সংখ্যা)

উদাহরণ ২ (জোড় সংখ্যা): ডেটা পয়েন্ট: 1,3,5,71, 3, 5, 7

গণনা: মিডিয়ান =3+52=4= \frac{3 + 5}{2} = 4


৩. Standard Deviation (মানক বিচ্যুতি)

Standard Deviation একটি পরিসংখ্যানিক পরিমাপ যা ডেটা পয়েন্টগুলির গড় থেকে কতটা বিচ্যুত তা পরিমাপ করে। এটি ডেটার বৈচিত্র্য বা পরিবর্তনশীলতার একটি মাপ। ছোট মানের মানক বিচ্যুতি নির্দেশ করে যে ডেটা পয়েন্টগুলি গড়ের কাছাকাছি অবস্থান করছে, এবং বড় মানের মানক বিচ্যুতি নির্দেশ করে যে ডেটা পয়েন্টগুলি গড় থেকে অনেক দূরে সরে গেছে।

গণনা সূত্র:

Standard Deviation=(Xiμ)2N\text{Standard Deviation} = \sqrt{\frac{\sum (X_i - \mu)^2}{N}}

যেখানে:

  • XiX_i হলো প্রতিটি ডেটা পয়েন্ট,
  • μ\mu হলো গড় (Mean),
  • NN হলো ডেটা পয়েন্টের সংখ্যা।

উদাহরণ: ডেটা পয়েন্ট: 5,10,15,20,255, 10, 15, 20, 25

  1. প্রথমে গড় (Mean) বের করুন:

    Mean=5+10+15+20+255=15\text{Mean} = \frac{5 + 10 + 15 + 20 + 25}{5} = 15

  2. প্রতিটি পয়েন্টের গড় থেকে বিচ্যুতি বের করুন এবং স্কোয়ার করুন:

    (515)2=100,(1015)2=25,(1515)2=0,(2015)2=25,(2515)2=100(5 - 15)^2 = 100, \quad (10 - 15)^2 = 25, \quad (15 - 15)^2 = 0, \quad (20 - 15)^2 = 25, \quad (25 - 15)^2 = 100

  3. স্কোয়ারগুলি যোগ করুন:

    100+25+0+25+100=250100 + 25 + 0 + 25 + 100 = 250

  4. স্কোয়ারগুলির যোগফলকে NN দ্বারা ভাগ করুন (এখানে N=5N = 5):

    2505=50\frac{250}{5} = 50

  5. এরপরে স্কোয়ার রুট বের করুন:

    507.07\sqrt{50} \approx 7.07

তাহলে, মানক বিচ্যুতি হলো 7.07


Python-এ Mean, Median, এবং Standard Deviation হিসাব করা

Python-এ এই পরিসংখ্যানিক পরিমাপগুলি NumPy লাইব্রেরি ব্যবহার করে খুব সহজে হিসাব করা যায়।

উদাহরণ:

import numpy as np

# ডেটা পয়েন্ট
data = np.array([5, 10, 15, 20, 25])

# Mean (গড়) হিসাব
mean = np.mean(data)
print("Mean:", mean)

# Median (মধ্যক) হিসাব
median = np.median(data)
print("Median:", median)

# Standard Deviation (মানক বিচ্যুতি) হিসাব
std_dev = np.std(data)
print("Standard Deviation:", std_dev)

আউটপুট:

Mean: 15.0
Median: 15.0
Standard Deviation: 7.071067811870354

সারাংশ

  • Mean (গড়) ডেটা সেটের গড় মান নির্দেশ করে, যা সমস্ত পয়েন্টের যোগফল এবং পয়েন্টের সংখ্যা দিয়ে হিসাব করা হয়।
  • Median (মধ্যক) ডেটা সেটের মাঝের মান, যা পয়েন্টগুলিকে ক্রমবর্ধমান বা ক্রমহ্রাসমান করে সাজানোর পর নির্ধারিত হয়।
  • Standard Deviation (মানক বিচ্যুতি) ডেটার গড় থেকে পয়েন্টগুলির বিচ্যুতি পরিমাপ করে এবং ডেটার বৈচিত্র্য বা ছড়িয়ে পড়া বুঝতে সহায়ক।

Python-এ NumPy ব্যবহার করে এগুলির গণনা খুবই সহজ এবং কার্যকরী।

Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...